嗨,基本上我們已經說明完Scrapy會用到的操做及流程了,今天要說明OCR
圖片識別,很多網站為了防止爬蟲爬取登入時會要求使用者輸入驗證碼,所以今天我們要來說明Python的文字識別。
圖片翻譯成文字一般被稱為光學文字識別(Optical Character Recognition,OCR),用於影像中分析文字資訊,在Python
用pytesseract
驗證識別碼。
到 Home · tesseract-ocr/tesseract Wiki · GitHub 依照自己電腦的作業系統安裝 tesseract
。
安裝pytesseract
與pillow
pip install pillow
pip install pytesseract
安裝好環境後,我們找一張驗證碼來測試吧:
from PIL import Image
import pytesseract
img = Image.open('./images-1.png')
img = img.convert('L')
ans = pytesseract.image_to_string(img)
print(ans)
W68HP
成功了!今天只有簡單說明了pytesseract
如何使用,因為最近在忙其他事情,晚點之後會再補充範例吧!